A Prosper.com é uma empresa líder na indústria de empréstimos peer-to-peer online. Os mutuários criam perfis e listagens (solicita empréstimos) nos investidores da Prosper.com tanto indivíduos quanto instituições, veem a listagem (pedido de empréstimo do mutuário) e decidem quanto emprestar o mutuário para o empréstimo.
As taxas de juros são tipicamente mais baixas para o mutuário do que para uma instituição financeira, como um banco. E vários investidores podem contribuir com o pedido de empréstimo de um mutuário, limitando o impacto global do risco do mutuário inadimplente no empréstimo para qualquer investidor e proporcionando um maior rendimento.
Neste projeto, vou apresentar uma análise de dados exploratórios em um conjunto de dados que contém informações sobre empréstimos. Este conjunto de dados pertence a Prosper.com e contém 113.937 empréstimos com 81 variáveis em cada empréstimo.
A minha motivação para trabalhar com esses dados é meu grande interesse pessoal em avaliar características do setor financeiro. Também me motiva todas as questões de eficiência, como por exemplo, otimizar as operações financeiras de forma e ser lucrativa para os dois lados, tanto do tomador do empréstimo (com crédito mais acessível, a taxas menores) quanto do emprestador (maior rentabilidade e redução de riscos de inadimplência). Além disso, esse tipo de análise pode ser ampliado para outras áreas como, por exemplo, análise de crédito.
## [1] "/Users/macbuck/Documents/Exploratory Analysis of Prosper Loans"
## [1] "Exploratory Analysis of Prosper Loans.Rmd"
## [2] "Exploratory_Analysis_of_Prosper_Loans.html"
## [3] "Exploratory_Analysis_of_Prosper_Loans.Rmd"
## [4] "prosperLoanData.csv"
O arquivo de dados ‘prosperLoanData.csv’ está lá. Este conjunto de dados possui 113.937 empréstimos com 81 variáveis em cada um, incluindo o valor, taxa de juros, status do pagamento, receita do mutuário, seu emprego atual, histórico do cartão de crédito e informações sobre seu último pagamento. A última atualização foi em 11.03.2014. Este dicionário de variáveis explica as variáveis do conjunto de dados.
Abaixo um sumário da estrutura do arquivo de dados da Prosper.com.
## 'data.frame': 113937 obs. of 81 variables:
## $ ListingKey : Factor w/ 113066 levels "00003546482094282EF90E5",..: 7180 7193 6647 6669 6686 6689 6699 6706 6687 6687 ...
## $ ListingNumber : int 193129 1209647 81716 658116 909464 1074836 750899 768193 1023355 1023355 ...
## $ ListingCreationDate : Factor w/ 113064 levels "2005-11-09 20:44:28.847000000",..: 14184 111894 6429 64760 85967 100310 72556 74019 97834 97834 ...
## $ CreditGrade : Factor w/ 9 levels "","A","AA","B",..: 5 1 8 1 1 1 1 1 1 1 ...
## $ Term : int 36 36 36 36 36 60 36 36 36 36 ...
## $ LoanStatus : Factor w/ 12 levels "Cancelled","Chargedoff",..: 3 4 3 4 4 4 4 4 4 4 ...
## $ ClosedDate : Factor w/ 2803 levels "","2005-11-25 00:00:00",..: 1138 1 1263 1 1 1 1 1 1 1 ...
## $ BorrowerAPR : num 0.165 0.12 0.283 0.125 0.246 ...
## $ BorrowerRate : num 0.158 0.092 0.275 0.0974 0.2085 ...
## $ LenderYield : num 0.138 0.082 0.24 0.0874 0.1985 ...
## $ EstimatedEffectiveYield : num NA 0.0796 NA 0.0849 0.1832 ...
## $ EstimatedLoss : num NA 0.0249 NA 0.0249 0.0925 ...
## $ EstimatedReturn : num NA 0.0547 NA 0.06 0.0907 ...
## $ ProsperRating..numeric. : int NA 6 NA 6 3 5 2 4 7 7 ...
## $ ProsperRating..Alpha. : Factor w/ 8 levels "","A","AA","B",..: 1 2 1 2 6 4 7 5 3 3 ...
## $ ProsperScore : num NA 7 NA 9 4 10 2 4 9 11 ...
## $ ListingCategory..numeric. : int 0 2 0 16 2 1 1 2 7 7 ...
## $ BorrowerState : Factor w/ 52 levels "","AK","AL","AR",..: 7 7 12 12 25 34 18 6 16 16 ...
## $ Occupation : Factor w/ 68 levels "","Accountant/CPA",..: 37 43 37 52 21 43 50 29 24 24 ...
## $ EmploymentStatus : Factor w/ 9 levels "","Employed",..: 9 2 4 2 2 2 2 2 2 2 ...
## $ EmploymentStatusDuration : int 2 44 NA 113 44 82 172 103 269 269 ...
## $ IsBorrowerHomeowner : Factor w/ 2 levels "False","True": 2 1 1 2 2 2 1 1 2 2 ...
## $ CurrentlyInGroup : Factor w/ 2 levels "False","True": 2 1 2 1 1 1 1 1 1 1 ...
## $ GroupKey : Factor w/ 707 levels "","00343376901312423168731",..: 1 1 335 1 1 1 1 1 1 1 ...
## $ DateCreditPulled : Factor w/ 112992 levels "2005-11-09 00:30:04.487000000",..: 14347 111883 6446 64724 85857 100382 72500 73937 97888 97888 ...
## $ CreditScoreRangeLower : int 640 680 480 800 680 740 680 700 820 820 ...
## $ CreditScoreRangeUpper : int 659 699 499 819 699 759 699 719 839 839 ...
## $ FirstRecordedCreditLine : Factor w/ 11586 levels "","1947-08-24 00:00:00",..: 8639 6617 8927 2247 9498 497 8265 7685 5543 5543 ...
## $ CurrentCreditLines : int 5 14 NA 5 19 21 10 6 17 17 ...
## $ OpenCreditLines : int 4 14 NA 5 19 17 7 6 16 16 ...
## $ TotalCreditLinespast7years : int 12 29 3 29 49 49 20 10 32 32 ...
## $ OpenRevolvingAccounts : int 1 13 0 7 6 13 6 5 12 12 ...
## $ OpenRevolvingMonthlyPayment : num 24 389 0 115 220 1410 214 101 219 219 ...
## $ InquiriesLast6Months : int 3 3 0 0 1 0 0 3 1 1 ...
## $ TotalInquiries : num 3 5 1 1 9 2 0 16 6 6 ...
## $ CurrentDelinquencies : int 2 0 1 4 0 0 0 0 0 0 ...
## $ AmountDelinquent : num 472 0 NA 10056 0 ...
## $ DelinquenciesLast7Years : int 4 0 0 14 0 0 0 0 0 0 ...
## $ PublicRecordsLast10Years : int 0 1 0 0 0 0 0 1 0 0 ...
## $ PublicRecordsLast12Months : int 0 0 NA 0 0 0 0 0 0 0 ...
## $ RevolvingCreditBalance : num 0 3989 NA 1444 6193 ...
## $ BankcardUtilization : num 0 0.21 NA 0.04 0.81 0.39 0.72 0.13 0.11 0.11 ...
## $ AvailableBankcardCredit : num 1500 10266 NA 30754 695 ...
## $ TotalTrades : num 11 29 NA 26 39 47 16 10 29 29 ...
## $ TradesNeverDelinquent..percentage. : num 0.81 1 NA 0.76 0.95 1 0.68 0.8 1 1 ...
## $ TradesOpenedLast6Months : num 0 2 NA 0 2 0 0 0 1 1 ...
## $ DebtToIncomeRatio : num 0.17 0.18 0.06 0.15 0.26 0.36 0.27 0.24 0.25 0.25 ...
## $ IncomeRange : Factor w/ 8 levels "$0","$1-24,999",..: 4 5 7 4 3 3 4 4 4 4 ...
## $ IncomeVerifiable : Factor w/ 2 levels "False","True": 2 2 2 2 2 2 2 2 2 2 ...
## $ StatedMonthlyIncome : num 3083 6125 2083 2875 9583 ...
## $ LoanKey : Factor w/ 113066 levels "00003683605746079487FF7",..: 100337 69837 46303 70776 71387 86505 91250 5425 908 908 ...
## $ TotalProsperLoans : int NA NA NA NA 1 NA NA NA NA NA ...
## $ TotalProsperPaymentsBilled : int NA NA NA NA 11 NA NA NA NA NA ...
## $ OnTimeProsperPayments : int NA NA NA NA 11 NA NA NA NA NA ...
## $ ProsperPaymentsLessThanOneMonthLate: int NA NA NA NA 0 NA NA NA NA NA ...
## $ ProsperPaymentsOneMonthPlusLate : int NA NA NA NA 0 NA NA NA NA NA ...
## $ ProsperPrincipalBorrowed : num NA NA NA NA 11000 NA NA NA NA NA ...
## $ ProsperPrincipalOutstanding : num NA NA NA NA 9948 ...
## $ ScorexChangeAtTimeOfListing : int NA NA NA NA NA NA NA NA NA NA ...
## $ LoanCurrentDaysDelinquent : int 0 0 0 0 0 0 0 0 0 0 ...
## $ LoanFirstDefaultedCycleNumber : int NA NA NA NA NA NA NA NA NA NA ...
## $ LoanMonthsSinceOrigination : int 78 0 86 16 6 3 11 10 3 3 ...
## $ LoanNumber : int 19141 134815 6466 77296 102670 123257 88353 90051 121268 121268 ...
## $ LoanOriginalAmount : int 9425 10000 3001 10000 15000 15000 3000 10000 10000 10000 ...
## $ LoanOriginationDate : Factor w/ 1873 levels "2005-11-15 00:00:00",..: 426 1866 260 1535 1757 1821 1649 1666 1813 1813 ...
## $ LoanOriginationQuarter : Factor w/ 33 levels "Q1 2006","Q1 2007",..: 18 8 2 32 24 33 16 16 33 33 ...
## $ MemberKey : Factor w/ 90831 levels "00003397697413387CAF966",..: 11071 10302 33781 54939 19465 48037 60448 40951 26129 26129 ...
## $ MonthlyLoanPayment : num 330 319 123 321 564 ...
## $ LP_CustomerPayments : num 11396 0 4187 5143 2820 ...
## $ LP_CustomerPrincipalPayments : num 9425 0 3001 4091 1563 ...
## $ LP_InterestandFees : num 1971 0 1186 1052 1257 ...
## $ LP_ServiceFees : num -133.2 0 -24.2 -108 -60.3 ...
## $ LP_CollectionFees : num 0 0 0 0 0 0 0 0 0 0 ...
## $ LP_GrossPrincipalLoss : num 0 0 0 0 0 0 0 0 0 0 ...
## $ LP_NetPrincipalLoss : num 0 0 0 0 0 0 0 0 0 0 ...
## $ LP_NonPrincipalRecoverypayments : num 0 0 0 0 0 0 0 0 0 0 ...
## $ PercentFunded : num 1 1 1 1 1 1 1 1 1 1 ...
## $ Recommendations : int 0 0 0 0 0 0 0 0 0 0 ...
## $ InvestmentFromFriendsCount : int 0 0 0 0 0 0 0 0 0 0 ...
## $ InvestmentFromFriendsAmount : num 0 0 0 0 0 0 0 0 0 0 ...
## $ Investors : int 258 1 41 158 20 1 1 1 1 1 ...
## [1] "Cancelled" "Chargedoff"
## [3] "Completed" "Current"
## [5] "Defaulted" "FinalPaymentInProgress"
## [7] "Past Due (>120 days)" "Past Due (1-15 days)"
## [9] "Past Due (16-30 days)" "Past Due (31-60 days)"
## [11] "Past Due (61-90 days)" "Past Due (91-120 days)"
Aqui são listadas as principais variáveis que serão analisadas.
Term: Duração do empréstimo em meses.
LoanStatus: Status atual do empréstimo:
BorrowerState: Estado do mutuário abreviado com duas letras.
ListingCategory: Motivo do empréstimo segundo o mutuário.
## [1] "Not Available" "Debt Consolidation" "Home Improvement"
## [4] "Business" "Personal loan" "Student Use"
## [7] "Auto" "Other" "Baby & Adoption"
## [10] "Boat" "Cosmetic Procedures" "Engagement Ring"
## [13] "Green Loans" "Household Expenses" "Large Purchases"
## [16] "Medical/Dental" "Motorcycle" "RV"
## [19] "Taxes" "Vacation" "Wedding Loans"
CreditScoreRangeLower: O menor valor que representa o alcance da pontuação de crédito do mutuário conforme fornecido por uma agência de rating de crédito ao consumidor.
CreditScoreRangeUpper: o valor superior que representa o alcance da pontuação de crédito do mutuário conforme fornecido por uma agência de rating de crédito ao consumidor.
LoanOriginalAmount: Valor original do empréstimo.
Investors: Número de investidores que financiam o empréstimo.
CloseDate: Data de fechamento do empréstimo.
Aqui são listadas outras variáveis que também são interessantes, mas que serão deixadas para um trabalho futuro.
BankcardUtilization: a porcentagem de crédito rotativo disponível que é utilizado no momento em que o perfil de crédito foi puxado.
IncomeRange: a porcentagem de crédito rotativo disponível que é utilizado no momento em que o perfil de crédito foi puxado.
ListingCreationDate: a data em que o regisro foi criado.
Occupation: ocupação selecionada pelo mutuário no momento da criação do registro.
IsBorrowerHomeowner: esse eu achei interessante, é quando um mutuário tem uma hipoteca em seu perfil de crédito ou fornece documentação confirmando que eles é um proprietário de uma casa.
BorrowerAPR: taxa de percentagem anual do avalista.
BorrowerRate: taxa de juros do mutuário para este empréstimo.
Recommendations: número de recomendações que o mutuário teve no momento em que o registro foi criado.
TotalProsperLoans: número de empréstimos da Prosper.com do mutuário no momento da criação do registro. Esse valor será NULL se o mutuário não tiver empréstimos prévios.
DebtTocomeRatio: o índice dívida.
StatedMonthlyIncome: a renda mensal que o mutuário declarou no momento em o registro foi criado.
Aqui é interessante ver a quantidade de emprestimos com 36 meses de duração são aqueles que mais foram realizados. Também é interessante perceber que a Prosper.com parece atrair empréstimos de curta duração 12-60 meses no máximo.
##
## 12 36 60
## 1614 87778 24545
Vamos dar uma olhada em empréstimos por Estado.
##
## AK AL AR AZ CA CO CT DC DE FL GA
## 5515 200 1679 855 1901 14717 2210 1627 382 300 6720 5008
## HI IA ID IL IN KS KY LA MA MD ME MI
## 409 186 599 5921 2078 1062 983 954 2242 2821 101 3593
## MN MO MS MT NC ND NE NH NJ NM NV NY
## 2318 2615 787 330 3084 52 674 551 3097 472 1090 6729
## OH OK OR PA RI SC SD TN TX UT VA VT
## 4197 971 1817 2972 435 1122 189 1737 6842 877 3278 207
## WA WI WV WY
## 3048 1842 391 150
Talvez fique mais interessante colocar em um mapa, ao invés de hitograma. No entanto, pelo histograma é possível observar um ponto negativo: é que mais de 5.000 empréstimos não especificam em que estado do mutuário.
Isso deu um pouco de trabalho, mas é legal para verificarmos o posicionamento estratégico da Prosper.com geoespacialmente. Como vemos, o Estado da Califórnia é o com maior número de empréstimos, o que faz bastante sentido já que a empresa é de lá. Outros estados como Texas, Nova York, Illinois e Flórida também se destacam.
Acabei ficando curioso pelos empréstimos sem BorrowerState definido, vou dar uma olhada nas característica desses empréstimos
## Term LoanStatus BorrowerState
## Min. :36 Completed :3883 :5515
## 1st Qu.:36 Chargedoff :1040 AK : 0
## Median :36 Defaulted : 589 AL : 0
## Mean :36 Cancelled : 3 AR : 0
## 3rd Qu.:36 Current : 0 AZ : 0
## Max. :36 FinalPaymentInProgress: 0 CA : 0
## (Other) : 0 (Other): 0
## ListingCategory CreditScoreRangeLower CreditScoreRangeUpper
## Not Available :5474 Min. : 0.0 Min. : 19.0
## Debt Consolidation: 14 1st Qu.:560.0 1st Qu.:579.0
## Personal loan : 12 Median :620.0 Median :639.0
## Business : 7 Mean :617.9 Mean :636.9
## Other : 4 3rd Qu.:680.0 3rd Qu.:699.0
## Auto : 3 Max. :880.0 Max. :899.0
## (Other) : 1 NA's :591 NA's :591
## LoanOriginalAmount Investors ClosedDate
## Min. : 1000 Min. : 1.00 2010-02-09 00:00:00: 15
## 1st Qu.: 2500 1st Qu.: 24.50 2007-03-20 00:00:00: 14
## Median : 3600 Median : 51.00 2009-04-14 00:00:00: 14
## Mean : 5412 Mean : 82.65 2009-08-31 00:00:00: 14
## 3rd Qu.: 6500 3rd Qu.:110.00 2009-02-18 00:00:00: 13
## Max. :25000 Max. :657.00 2009-02-23 00:00:00: 13
## (Other) :5432
## state
## alabama : 0
## alaska : 0
## arizona : 0
## arkansas : 0
## california: 0
## (Other) : 0
## NA's :5515
Como podemos verificar, a maioria dos empréstimos sem Estado definido foram completos (Completed), ou cobrados por fora (Chargedoff, provavelmente judicialmente ou por acordo). Todos de 36 meses, com uma média de $3.600,00 de valor original de empréstimo e a grande maioria não especificou o que faria com o empréstimo (Not Available).
Olhando a data de fechamento (ClosedDate), percebe-se que esses registros são de 2005 a 2009. Depois disso não há mais ocorrência. O que é bom. Provavelmente a Prosper.com introduziu algum campo de validação ou adicional a seu sistema para tornar obrigatório a especificação do Estado.
##
## Not Available Debt Consolidation Home Improvement
## 16965 58308 7433
## Business Personal loan Student Use
## 7189 2395 756
## Auto Other Baby & Adoption
## 2572 10494 199
## Boat Cosmetic Procedures Engagement Ring
## 85 91 217
## Green Loans Household Expenses Large Purchases
## 59 1996 876
## Medical/Dental Motorcycle RV
## 1522 304 52
## Taxes Vacation Wedding Loans
## 885 768 771
É interessante observar aqui que a grande maioria declara que pega dinheiro empresatado para quitar outros débitos. Novamente, muitos valores sem definir o porpósito específico do empréstimo: Not available e Other (que acaba tendo o mesmo significado de Other :P).
Agora vamos verificar o número de empréstimos pelo valor total do empréstimo.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1000 4000 6500 8337 12000 35000
## [1] 949894347
Olhando o gráfico e a tabela, percebemos que o ticket médio é de $8.337,00, 75% dos empréstimos são de $1.000,00 a $12.000,00.
Por fim, vamos dar uma verificada no número de investidores por empréstimo.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.00 2.00 44.00 80.48 115.00 1189.00
Interessante ver que 25% do total dos empréstimos é realizado por 1 ou dois investidores e 75% dos empréstimos por até 115 investidores. Existem empréstimos com até 1.189 investidores, no entanto, a maioria deles é realizada por 1.
Vamos dar uma olhada no total de empréstimos (em volume de dinheiro) tomados por Estado.
Novamente, estados como Texas, Nova York, Illinois e Flórida também se destacam, além é claro da Califórnia. No período analisado, cerca de $132,075.153 foram emprestados em CA de um total de $949.894.347 nos EUA inteiro (CA representa 13,9% do total emprestado nos EUA). A Prosper.com nesse período quase atingiu 1 bilhão em empréstimos.
Novamente, interessante ver que os mesmos estados também possuem maiores números de investidores. Aqui não há distinção se um mesmo investidor emprestou x vezes no mesmo estado ou em mais estados. Apenas representa o número de vezes que investidores emprestaram dinheiro (ou seja, um único investidor pode ter participado de 100 empréstimos em CA e 50 em NY, a contagem total desse gráfico considera que ele emprestou 150 vezes).
Antes de avançar para análise com gráficos bivariados, vamos utilizar a função ggpairs para gerar uma matriz com mu subset do dataframe. Foram utilizadas 1.000 amostras para não demorar muito.
Podemos verificar que os scores de crédito, CreditScoreRangeUpper e CreditScoreRangeLower, apresentam uma impressionante correlação de 1. É também possível ver que o gráfico entre essas duas variáveis é praticamente uma reta. Os scores de crédito possuem uma correlação significante com LoanOriginalAmount, assim como com Investors. Por fim, chamou a atenção a correlação entre LoanOriginalAmount e Investors. Vamos investigar isso adiante.
Uma coisa que interessou foi a relação entre LoanOriginalAmount com CreditScoreRangeUpper e CreditScoreRangeLower. Pra isso, vamos colocar os dois em um mesmo grid para comparar.
É possível observar que LoanOriginalAmount aumenta quand CreditScoreRangeUpper e CreditScoreRangeLower aumentam. No entanto, é possível observar que também tem um grupo de alto risco que opera empréstimos na Prosper.com, com CreditScoreRangeUpper e CreditScoreRangeLower baixos, mas com LoanOriginalAmount abaixo dos $10.000.
##
## Pearson's product-moment correlation
##
## data: loans_subset$CreditScoreRangeLower and loans_subset$CreditScoreRangeUpper
## t = 1.5976e+10, df = 113340, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 1 1
## sample estimates:
## cor
## 1
Como o gráfico é praticamente igual, e a relação entre CreditScoreRangeUpper e CreditScoreRangeLower é linear (essa é uma relação muito forte, com altíssima correlação, conforme gráfico acima), vamos utilizar daqui para frente somente o CreditScoreRangeUpper para a análise multivariada, baseando-se no gráfico abaixo.
Por fim, vamos verificar se há relação no número de investidores por empréstimo, e o valor total do empréstimo.
##
## Pearson's product-moment correlation
##
## data: loans_subset$Investors and loans_subset$LoanOriginalAmount
## t = 138.71, df = 113940, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.3751140 0.3850494
## sample estimates:
## cor
## 0.3800926
Até que há uma correlação. No entanto, essa correlação é fraca (pois seu valor absoluto está entre 0,3 e 0,5). Na verdade, pelo gráfico, parace que existem pelo menos 4 linhas horizontais de crédito que atraem de 1 a 500 investidores (em y = $25.000, $20.000, $15.000 e $10.000) e uma linha vertical com investidores individuais que empresta de $1.000 até $35.000. Isso poderia ser útil para analisar as carteiras de empréstimos mais requisitadas (ou disponibilizadas na Prosper.com) e segmentos de investidores.
##
## Pearson's product-moment correlation
##
## data: loans_subset$Investors and loans_subset$CreditScoreRangeUpper
## t = 94.915, df = 113340, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.2659485 0.2767345
## sample estimates:
## cor
## 0.27135
Esse último gráfico representa a correlação entre CreditScoreRangeUpper e Investors. Faz sentido o número de investidores aumentar com o aumento do score de crédito, uma vez que é um negócio baseado na confiança de que o mutuário vai quitar o empréstimo.
A ideia aqui é explorar a relação entre o status do empréstimo com o propósito dele e com o volume do empréstimo. Ou seja, pessoas que pegam empréstimo de cerca de $30.000 para seus negócios (Business), costumam ter quais status? Para ter uma visão disso, o gráfico abaixo procura ilustrar essa relação.
De fato, interessante. Note que empréstimos para férias (Vacation) de valor alto costumam apresentar inadimplência de 1 a 2 meses. É possível verificar outras relações interessantes. Na seção seguinte vamos melhorar esse gráfico para visualizar melhor a relação entre essas variáveis.
Aqui, a ideia é agrupar todos os inadimplentes: ‘Defaulted’,‘Chargedoff’,‘Past Due (61-90 days)’,‘Past Due (91-120 days)’,‘Past Due (>120 days)’ em maus mutuários e o restante como bons mutuários.
##
## Delinquent Good
## 17643 96294
O primeiro gráfico (Loan Purpose by Borrower Status by Original Amount) é possível observar para que propósitos os empréstimos são realizados e quais suas características de inadimplência.
Nele observamos que os empréstimos realizados com o propósito de compras de barco (Boat) e pagamento de férias (Vacation), há uma maior quantidade de valores emprestados por maus mutuários do que bons mutuários, enquanto que empréstimos realizados com o propósito de pagamentos de impostos (Taxes), motocicletas (Motorcycle) e reformas (House Improvement), há uma maior quantidade de valores emprestados por bons mutuários do que maus mutuários.
Ainda, para uso em Business temos os maiores valores, enquanto que para Debt Consolidation temos empréstimos maiores (apesar desse último ser o tipo de empréstimo que a Prosper.com mais realiza). Esse modelo será excelente para, em trabalhos futuros, utilizar machine learning para classificação dos empréstimos para algoritmos de métodos supervisionados.
O último gráfico (Loan Amount by Credit Score by Borrower Status) também indica a possíbilidade de se utilizar certas variáveis em algoritmos de métodos não-supervisionados, de forma a clusterizar os empréstimos. Por exemplo, mutuários com score próximo de 0 e próximo de 500 para empréstimos de $10.000 e próximo de 600 para empréstimos próximos de $20.000 tem boa chance de ser inadimplentes.
O segundo gráfico acabou não mostrando relação entre o número de investidores no empréstimo com a inadimplência.
Conforme comentado, as operações da Prosper.com estão concentradas no Estado da Califórnia (13,9% de todos os empréstimos realizados no período). No entanto, estados como Texas, Nova York, Illinois e Flórida também se destacam. Isso indica que um estudo de viabilidade de abertura de um escritório da Prosper.com na costa leste pode indicar uma forma de crescer as operações nesses estados, assim como acontece em CA.
Aqui é possível observar para que propósitos os empréstimos são realizados e quais suas características de inadimplência. Por exemplo, para uso em Business temos os maiores valores, enquanto que para Debt Consolidation temos empréstimos maiores (apesar desse último ser o tipo de empréstimo que a Prosper.com mais realiza). Conforme comentado anteriormente, nele observamos que os empréstimos realizados com o propósito de compras de barco (Boat) e pagamento de férias (Vacation), há uma maior quantidade de valores emprestados por maus mutuários do que bons mutuários, enquanto que empréstimos realizados com o propósito de pagamentos de impostos (Taxes), motocicletas (Motorcycle) e reformas (House Improvement), há uma maior quantidade de valores emprestados por bons mutuários do que maus mutuários.
É interessante ver como 3 dimensões formam uma espécie de “assinatura” de empréstimos que resultaram em inadimplência e de empréstimos que estão okey. Exelente para utilizar com machine learning, seja para clusterizar empréstimos em certas categorias, seja para criar modelos preditivos para indicar se um futuro empréstimo para um mutuário tem potencial de não ser pago ou de ser pago. Po exemplo, se uma solução de machine learning fosse usada apenas com base nessas 3 dimensões, poderíamos dizer que empréstimos de Home Improvement com valores abaixo de $10.000 tem boas chances de se tornarem inadimplentes.
Uma aplicação bastante interessante aqui seria elaborar um modelo de machine learning utilizando métodos de aprendizagem supervisionada, classificando as operações históricas em duas variáveis categóricas (Delinquent e Good), para prever se um futuro ou atual empréstimo/mutuário potencialmente poderia se tornar inadimplente.
Por fim, nesse gráfico é possível observar uma certa clusterização. Mutuários com score próximo de 0 e próximo de 500 para empréstimos de $10.000 e próximo de 600 para empréstimos próximos de $20.000 tem boa chance de ser inadimplentes. Novamente, essa informação com machine learning poderia ser muito útil para aumentar a eficiência operacional da Prosper.com.
Existem muitos empréstimos onde o estado do mutuário não foi especificado. Uma melhoria para a Prosper.com seria deixar o preenchimento desse dado como obrigatório, até por uma questão de confirmação de onde o mutuário está. Adicionalmente, poderia ser adicionada a cidade do mutuário e a cidade do emprestador, de forma a entender onde a Prosper.com está tendo sucesso e onde é necessária maior ação de marketing ou comercial para ampliar os negócios.
Novamente, existem muitos valores não especificados: “Not available” e “Other”. Seria importante especificar, até para ajudar como medida de risco de futura inadimplência.
Uma coisa que poderia ser aprimorada no Prosper.com são as informações sobre os investidores, de forma a verificar características de quem empresta dinheiro para futuramente promover mais o negócio e conseguir mais investidores.
A principal descoberta foi a concentração das operações da Prosper.com no Estado da Califórnia (13,9% de todos os empréstimos realizados no período). Foi interessante também observar para que propósitos os empréstimos são realizados e quais suas características de inadimplência. Essa característica pode servir bastante para análise de c’redito conforme comentado (usando machine learning). Por fim, também foi possível verificar uma relação interessante entre valor do empréstimo, score de crédito do mutuário e situação do empréstimo (inadimplente ou não), que também pode ser usado com propósito de análise de créditos futuros.
Como trabalho futuro, conforme indicado no gráfico abaixo, pode-se analisar mais características do mutuário, como recomendações, bens e Prosper score, de forma a caracterizar melhor o bom pagador e o inadimplente. Isso aumentaria a eficiência operacional, criando um sistema de forecasting (usando algoritmos supervisionados de machine learning) indicando se um futuro empréstimo para um mutuário tem potencial de não ser pago ou de ser pago.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
Outro trabalho futuro, muito interessante, é avaliar o potencial de crescimento do Prosper.com nos demais estados da costa leste, e decidir por abrir ou não um escritório em algum dos estados para ampliar o faturamento. Esse trabalho poderia incluir uma análise temporal da evolução dos empréstimos, inadimplência, taxas, por estado. Ficaria muito bacana!